Definizione 10.1.1: Il Legame Statistico
Due variabili $X$ e $Y$ sono considerate correlate se c'è qualsiasi cambiamento nella distribuzione condizionata di $Y$, dato $X = x$, man mano che $x$ cambia. Inversamente, uno stato di "nessuna relazione" è matematicamente equivalente all'indipendenza tra $X$ e $Y$.
Le variabili $X$ e $Y$ sono indipendenti se e solo se $f(y|x) = f(y)$ per tutti i valori di $x$. Ciò implica che la funzione di frequenza relativa congiunta può essere fattorizzata come:
$$f(x, y) = f(x)f(y)$$
Pertanto, verificare una relazione è fondamentalmente un test di Indipendenza.
Meccanismi di Cambiamento
Una relazione viene identificata da qualsiasi spostamento nella funzione di densità condizionata (come mostrato nella Figura 10.1.1). Questo include:
- Spostamento della Media: Il valore atteso $E(Y|X)$ cambia (l'aspetto più comune).
- Spostamento della Varianza: La dispersione o l'incertezza di $Y$ dipende da $X$ (eteroschedasticità).
- Cambiamento della Forma: La distribuzione complessiva si trasforma (ad esempio, da simmetrica a asimmetrica).
Stabilire la Causalità Attraverso il Disegno
Una relazione statistica non implica causalità. Per affermare che $X$ causa $Y$, dobbiamo tenere conto delle variabili confondenti attraverso il Disegno degli Esperimenti:
- Trattamenti di Controllo: Fornisce un punto di riferimento per il confronto.
- Effetto Placebo: Riduzione dell'effetto miglioramento percepito grazie a trattamenti inattivi.
- Mascheramento: Utilizzando esperimenti ciechi (soggetti ignari) e esperimenti doppi ciechi (soggetti e ricercatori ignari) per eliminare gli errori sistematici.
- Bloccaggio: Come mostrato in Esempio 10.1.7, utilizziamo variabili di blocco ($W$, come la fertilità del suolo) per garantire che la relazione tra tipo di grano ($X$) e resa ($Y$) non sia influenzata da condizioni pre-esistenti.